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Bab 1 


Pendahuluan 


11 Model Probabilistik 

Lama waktu yang dibutuhkan oleh seorang mahasiswa untuk 
melakukan perjalanan dari rumah ke kampus dengan menggunakan 
kendaraan bermotor umumnya tergantung pada jarak dari rumah ke 
kampusnya. Anggap Anda akan memodelkan waktu tempuh sebagai fungsi 
dari jarak. Apakah Anda dapat memastikan berapa lama waktu tempuh 
yang diperlukan oleh seorang mahasiswa jika diketahui jarak dari rumah 
ke kampusnya? Anda semua mungkin setuju bahwa jawabannya tidak” 
karena ada faktor-faktor yang dapat memengaruhi lama waktu tempuh, 
misalnya berapa banyak persimpangan jalan yang dilalui, pukul berapa 
berangkat dari rumah, dan lain-lain. 

Dalam kondisi ideal”, jika seorang mahasiswa dapat melakukan 
perjalanan dengan kecepatan konstan 40 km/jam dan jarak dari rumah ke 
kampusnya 20 km, maka ia memerlukan waktu tepat setengah jam untuk 
melakukan perjalanan dari rumah ke kampus. Secara umum, jika seorang 
mahasiswa melakukan perjalanan dengan kecepatan konstan 40 km/jam 
dan jarak dari rumah ke kampus adalah X km maka waktu yang diperlukan 
(dalam satuan jam) adalah: 


Maa den Y- 0,025 X d.1) 
40 


Model di atas merupakan model deterministik yang menyatakan 
hubungan antara jarak dan waktu tempuh. Dalam model deterministik, jika 
jarak X diketahui maka secara pasti kita dapat memprediksi lama waktu 
tempuh yang diperlukan (Y) tanpa adanya kekeliruan atau galat (error). 

Dalam realitas kehidupan “kondisi ideal” jarang dijumpai. Meskipun 
jarak dari rumah Anda ke kampus diketahui 20 km, tetapi Anda tidak dapat 


1 
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memastikan lama waktu tempuh dari rumah ke kampus karena Anda akan 
sulit melakukan perjalanan dengan kecepatan konstan. Jika Anda 
melakukan perjalanan setiap harinya dengan kecepatan rata-rata 40 
km/jam maka waktu tempuh yang Anda perlukan rata-rata setengah jam. 
Waktu tempuh Anda dari rumah ke kampus dari hari ke hari akan 
bervariasi, bisa lebih atau kurang dari setengah jam. 

Kita dapat memodifikasi model deterministik (1.1) untuk 
memodelkan waktu tempuh Anda dari rumah ke kampus sebagai fungsi 
dari jarak. Caranya adalah dengan memasukkan suku galat acak (random 
error) ke dalam model (1.1), sehingga modelnya menjadi: 


Y- 0,025 X 4 Galat Acak 


Model ini dinamakan model probabilistik. Suku galat acak dipakai untuk 
memperhitungkan adanya variasi nilai-nilai Y untuk nilai X yang tetap. 
Suku 0,025X merupakan komponen deterministik. Dalam banyak situasi 
model probabilistik lebih sesuai untuk digunakan. 


1.2 Model-Model Regresi 

Dalam buku ini kita akan mempelajari model probabilistik yang 
dinamakan model regresi. Model regresi yang paling sederhana adalah 
model regresi linier sederhana dengan bentuk persamaan 


Y- Pot PX4€ 42) 


Komponen deterministik pada model (1.2) adalah Po # PX jika X 
dianggap bukan variabel acak. Variabel Y dinamakan variabel dependen, 
variabel X dinamakan variabel independen, &5 (beta nol) dan P, (beta satu) 
adalah parameter-parameter yang nilainya tidak diketahui, dan « (epsilon) 
adalah galat acak (random error). Komponen deterministik pada model 
(J.2) adalah B9 # PIX jika X dianggap bukan variabel acak”. Ada istilah- 
istilah lain untuk pasangan variabel independen-variabel dependen, yakni 
variabel bebas-variabel terikat, explanatory variable-explained variable, 
predictor-predictand, regressor-regressand, Stimulus-response, 
exogenous-endogenous, covariate-outcome, atau control variable- 
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controlled variable. Untuk selanjutnya dalam buku ini akan digunakan 
istilah variabel independen dan variabel dependen. 

Model (1.2) disebut regresi linier karena Y merupakan fungsi linier 
dari X, yakni variabel X berpangkat 1. Pada model ini Y juga merupakan 
fungsi linier dari parameter karena 89 dan 8, masing-masing juga 
berpangkat 1. Secara umum model yang linier dalam parameter dinamakan 
model linier. Jadi, model (1.2) sekaligus merupakan model regresi linier 
dan juga model linier. Kita akan membahas secara detail model regresi 
linier sederhana di Bab 2. 

Model regresi linier dapat melibatkan lebih dari satu variabel 
independen. Secara umum jika terdapat k variabel independen, yakni X,, 
Xo, ... Xx, maka model regresi liniernya adalah 


Y 5 PE PX PX 4.4 PX 4 8 (1.3) 


Model (1.3) dinamakan model regresi linier ganda (multiple). Di sini 
Po» Po, --. Px adalah parameter dan & adalah galat acak. Perhatikan bahwa 
model (1.3) juga merupakan model linier. Kita secara khusus akan 
membahas regresi linier ganda dengan dua dan tiga variabel independen di 
Bab 3. Di Bab 4 akan dibahas model regresi linier secara umum dengan 
menggunakan notasi matriks. 

Model regresi dengan persamaan berbentuk 


Ye Mt pK1 PK te (1.4) 


bukan model regresi linier karena memuat X?, tetapi merupakan model 
linier karena linier dalam parameter. Jika dimisalkan X, — X dan X, -X 
maka model (1.4) dapat ditulis sebagai 


Y- K4 PX 4 RX, t€ 


yang berbentuk seperti model regresi linier ganda dengan dua variabel 
independen. Model seperti ini dan beberapa variasi yang lain akan dibahas 
di Bab 5. 

Terdapat juga model-model regresi yang tidak linier, baik dalam 
variabel independen maupun dalam parameter, misalnya: 
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Y — Per t-€ 


Di sini variabel independen X dan parameter $, sebagai pangkat. Model 
1 
Y——- 
Pot BX 


juga tidak linier baik dalam variabel independen maupun dalam parameter. 
Di dalam buku ini tidak dibahas model regresi yang tidak linier dalam 


€ 


parameter. 
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Bab 2 


Regresi Linier Sederhana 


21 Pendahuluan 
Model regresi linier sederhana adalah model probabilistik yang 
menyatakan hubungan linier antara dua variabel di mana salah satu 
variabel dianggap memengaruhi variabel yang lain. Variabel yang 
memengaruhi dinamakan variabel independen dan variabel yang 
dipengaruhi dinamakan variabel dependen. Sebagai contoh, mungkin 
seorang peneliti tertarik untuk menyelidiki pengaruh (hubungan) linier dari 
intelegency guotient (IG) terhadap hasil belajar statistika mahasiswa. Di 
sini IO adalah variabel independen, sedangkan hasil belajar statistika 
adalah variabel dependen. Masih banyak contoh yang dapat dimodelkan 
dengan regresi linier sederhana, misalnya hubungan antara motivasi dan 
kinerja pegawai, hubungan antara usia dan tinggi badan manusia, 
hubungan antara pendapatan dan pengeluaran rumah tangga, dan lain-lain. 
Di bab ini akan dibahas secara detail model regresi linier sederhana. 
Pada Bagian 2.2 dibahas model matematika untuk regresi linier sederhana. 
Bagian 2.3 dan 2.4 berturut-turut berisi tentang estimasi dan uji hipotesis 
tentang parameter. Pada Bagian 2.5 dibahas interval konfidensi. Pada 
bagian ini juga dijelaskan kaitan antara interval konfidensi dan uji 
hipotesis. Bagian 2.6 berisi pembahasan tentang koefisien determinasi dan 
Bagian 2.7 membahas penggunaan model untuk estimasi dan prediksi. 
Bagian 2.8 berisi hubungan antara regresi dan korelasi. 


2.2 Model Regresi Linier Sederhana 
Model probabilistik untuk regresi linier sederhana adalah: 


Y- pt PX4€ (2.1) 
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di mana X adalah variabel independen, Y adalah variabel dependen, &, dan 
B1 adalah parameter-parameter yang nilainya tidak diketahui yang 
dinamakan koefisien regresi, dan & adalah kekeliruan atau galat acak 
(random error). Di sini variabel independen X diasumsikan bukan 
variabel acak, dapat diobservasi atau diukur dengan kekeliruan yang 
dapat diabaikan, dan variasi dalam X dianggap dapat diabaikan 
dibanding dengan range dari X. Sebagai konsekuensi dari adanya suku 
galat acak & maka variabel dependen Y juga merupakan variabel acak. 

Galat acak € mempunyai peranan yang sangat penting dalam analisis 
regresi. Galat acak & digunakan untuk memodelkan variasi nilai-nilai Y 
untuk nilai X yang tetap. Sebagai contoh, dari 10 mahasiswa dengan 
tingkat IO yang sama (X), jika diuji maka hasil belajarnya (Y) belum tentu 
sama, tetapi pada umumnya akan ada variasi. Variasi ini mungkin karena 
ada faktor selain IO yang memengaruhi hasil belajar. Karena kita hanya 
fokus pada pengaruh X terhadap Y, maka akan selalu diasumsikan bahwa 
mean (harga harapan atau ekspektasi) galat acak & sama dengan 0, ditulis 
E(s) — 0. Ini berarti bahwa pengaruh semua faktor di luar X mean-nya 
dianggap sama dengan 0. Asumsi ini kiranya beralasan untuk mendapatkan 
model regresi linier sederhana yang baik. 

Dengan asumsi bahwa mean galat acak sama dengan nol, maka 
mean variabel dependen Y dinotasikan dengan E(Y) adalah: 


EX) — Pt BX. (2.2) 


Dari rumus ini terlihat bahwa mean dari Y hanya dipengaruhi oleh X, 
parameter 29 dan 81, dan tidak dipengaruhi oleh faktor lain. Persamaan 
(2.2) merupakan persamaan garis lurus dengan gradien (kemiringan) $1 
yang memotong sumbu vertikal di f6. Parameter 29 dinamakan intercept 
dan parameter 2, menyatakan perubahan pada mean E(Y) untuk setiap 
kenaikan satu satuan dalam X. 

Jika (X,Y1), (X2,Y2), ... (Xr,Yn) adalah sampel dari pasangan variabel 
independen X dan variabel dependen Y yang memenuhi persamaan (2.1) 
maka, 
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Y 5 Pp tBX,t£ 


Y, Pot BX, te, 23) 


Y, Bt BX, Tt, 


Di sini, terdapat n galat acak &,, &, ..., &. Semua galat acak ini 
diasumsikan memiliki mean 0. 

Kita juga akan selalu asumsikan bahwa galat acak & memiliki 
variansi konstan o? (sigma kuadrat), ditulis Var(s) — o'. Untuk nilai-nilai X 
yang berbeda galat-galat acaknya dianggap mempunyai variansi yang 
sama, yakni semua galat acak &,, &, ..., &, pada rumus (2.3) diasumsikan 
semuanya memiliki variansi o'. Sebagai akibatnya, Var(Y) — o' untuk 
setiap i — 1, 2, ..., n. Asumsi ini dikenal dengan asumsi homogenitas atau 
dalam analisis regresi sering disebut homoskedastisitas (homoscedasticity). 

Dalam praktik mungkin saja untuk nilai X yang berbeda variasi 
nilai-nilai Y juga berbeda. Sebagai contoh, variasi hasil belajar mahasiswa 
dengan tingkat IO 90 mungkin berbeda dengan variasi hasil belajar 
mahasiswa dengan tingkat IO 130, tetapi yang dibahas di sini semua 
variansi galat acak diasumsikan sama. Tujuannya adalah untuk 
memudahkan dan menyederhanakan analisis. 

Asumsi lain yang nantinya akan digunakan adalah bahwa galat-galat 
acak 61, &, ..., & tidak berkorelasi. Ada juga yang mengasumsikan bahwa 
galat-galat acak saling independen. Ini dua hal yang sedikit berbeda. 
Dalam teori statistik, jika galat-galat acak diasumsikan saling independen, 
maka galat-galat acak tersebut pasti tidak berkorelasi, tetapi jika galat- 
galat acak tidak berkorelasi belum tentu galat-galat acak tersebut saling 
independen. Galat-galat acak yang tidak berkorelasi juga akan independen 
Jika galat-galat acak tersebut berdistribusi normal. 

Selanjutnya galat acak & akan diasumsikan berdistribusi normal 
dengan mean 0 dan variansi konstan o? untuk sembarang nilai variabel 
independen X. Dengan demikian, galat-galat acak €,, &, ..., &, semuanya 
diasumsikan memiliki distribusi normal dengan mean 0 dan variansi sama 
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@. Asumsi normalitas sangat penting dalam analisis regresi, khususnya 
dalam uji hipotesis atau untuk membentuk interval konfidensi parameter. 
Dengan mengasumsikan galat acak & berdistribusi normal, akan dapat 
dikenali distribusi-distribusi statistik untuk uji hipotesis, dan selanjutnya 
kita dapat memanfaatkan tabel-tabel yang tersedia untuk membuat 
kesimpulan dalam uji hipotesis tentang parameter. Perlu ditegaskan di sini 
bahwa dalam analisis regresi yang diuji normalitasnya adalah galat 
acaknya, bukan variabel dependen atau bahkan variabel independennya. 
Hal ini karena mungkin saja galat-galat acak berdistribusi normal, tetapi 
data variabel dependen bukan dari distribusi normal. 


2.3  Mengestimasi Parameter 
Salah satu hal yang sangat penting dalam analisis regresi adalah 
mengestimasi parameter 85, B1, dan &. 


2.3.1 Mengestimasi 9 dan &, 

Anggap kita telah memiliki realisasi data sampel pasangan variabel 
independen dan variabel dependen (X1,Y1), (X2,Y»), ..., (XYn). Pasangan 
(X5Y1) berarti bahwa dari responden pertama telah diperoleh data variabel 
independen X, dan variabel dependen Y,, pasangan (X»,Y») berarti bahwa 
dari responden kedua telah diperoleh data variabel independen X, dan 
variabel dependen Y,, dan seterusnya. Dengan data sampel ini selanjutnya 
dapat diestimasi nilai-nilai parameter 5 dan B1. 

Ada beberapa metode untuk mendapatkan estimator atau penduga 
untuk 89 dan P1. Dua di antara metode yang terkenal adalah metode 
kuadrat terkecil biasa (ordinary least sguare) dan metode kemungkinan 
maksimum (maximum likelihood). 


Metode Kuadrat Terkecil 

Untuk sekedar mengestimasi nilai-nilai parameter 89 dan 8, dengan 
metode kuadrat terkecil galat-galat acak tidak perlu diasumsikan bahwa 
memiliki mean 0, variansi konstan, tidak berkorelasi, atau berdistribusi 
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normal. Perhatikan bahwa dari persamaan (2.3) jika tersedia sampel dari n 
responden maka kita memiliki n galat acak, yaitu: 


Xt AS 


En Ae Sa ba 2.4) 


8, —Y, ia PDA, 


Model yang 'terbaik' adalah model yang memiliki nilai galat yang 
terkecil. Karena ada n nilai galat acak, yakni &,, &, ..., &, maka kita perlu 
memperhitungkan seluruh nilai galat tersebut. Sekilas mungkin kita 
memikirkan bahwa model yang terbaik adalah model yang jumlah seluruh 
galatnya nol. Kriteria ini kurang baik karena jika beberapa galat positif dan 
yang lain negatif, maka jumlahnya mungkin mendekati atau sama dengan 
0, dan bukan berarti bahwa modelnya sudah baik. Ide yang lebih baik 
adalah mengkuadratkan seluruh galat (sehingga nilainya selalu positif) dan 
kemudian menjumlahkannya sehingga diperoleh jumlah kuadrat galat yang 
dapat dituliskan sebagai: 


Jumlah kuadrat galat ini kemudian dibuat sekecil mungkin. Nilai 26 
dan 81 yang membuat jumlah kuadrat galat ini bernilai minimum 
merupakan estimator untuk 89 dan Bj, yang selanjutnya masing-masing 
akan dinotasikan dengan bp, dan b,. Estimator ini dinamakan estimator 
kuadrat terkecil (least sguared estimator). Dapat dibuktikan secara 
matematis bahwa rumus untuk b, adalah: 


NX, KS 
b — i-l il i-1 
: n n 2 
ny Xx? “Xx 


(2.5) 
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sedangkan rumus untuk bp adalah 


b, — 2 — (2.6) 


atau 
b, —Y —bX (2.7) 


atau 


ya, NYX Ya, 
2 il il il 
— 2 
n) X? -£ | 
il il 


Ketiga rumus bp di atas ekuivalen, yakni akan memberikan hasil 
yang sama jika dipakai untuk menghitung b9. Untuk menghitung by, dan b, 


(2.8) 


bs 


penulis menyarankan pertama-tama menghitung b, dengan menggunakan 
rumus (2.5) dan selanjutnya menghitung b, dengan rumus (2.6) atau (2.7). 
Rumus untuk b, juga dapat disajikan dalam bentuk: 


n 
Dp: 
0 il 
b - AA 
2 
Y. 
isl 


(2.9) 


di mana 


x, 5X,—X dan y —Y, —Y. 


1 


Perhatikan bahwa huruf besar dan huruf kecil pada rumus di atas 
mempunyai arti yang berbeda. Jika kita menggunakan rumus (2.9) untuk 
menghitung b, maka sebaiknya menggunakan rumus (2.7) untuk 
menghitung bo. 
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Rumus (2.9) juga dapat dituliskan dalam bentuk lain, yakni: 


J 
b, DAY, (2.10) 
J xx 
di mana 
Jr 5 YX,-X)YX,—Y) 5 YAX,— XX, SIX. AS 
iA il i-l n 
(2.11) 
dan 
Pa 2 
n n bg 
Tni SAK SKY SAY KAA A5 (2.12) 


i-l il n 


Perhitungan secara manual untuk b, dan b, akan lebih mudah jika 
digunakan bantuan tabel, lihat Contoh 2.1. 

Di awal telah disebutkan bahwa untuk sekedar mengestimasi nilai- 
nilai parameter &9 dan 2, dengan metode kuadrat terkecil, maka asumsi- 
asumsi yang telah disebutkan terdahulu tidak diperlukan, tetapi kita tidak 
dapat menilai baik tidaknya estimator yang diperoleh. Jika galat-galat acak 
Ep & »«» & diasumsikan semuanya memiliki mean 0 dan variansi o' dan 
tidak korelasi (tidak perlu asumsi normalitas), maka estimator-estimator bp 
dan b, yang diperoleh memiliki sifat-sifat yang baik, yakni tidak bias dan 
memiliki variansi terkecil di antara estimator-estimator linier lainnya, atau 
dikenal dengan Best Linear Unbiased Estimator (BLUE). 

Metode Maksimum Likelihood 

Untuk mengestimasi nilai parameter 29 dan 81 dengan metode 
maksimum likelihood diperlukan asumsi bahwa variabel-variabel galat &,, 
&,  E» Semuanya memiliki mean 0, variansi o , tidak berkorelasi/ 
independen, dan berdistribusi normal. Penjelasan metode ini terlalu 
matematis sehingga kurang bijaksana untuk diuraikan di sini. Hal yang 
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sangat penting untuk diketahui oleh para pembaca adalah bahwa dalam 
regresi linier sederhana (dan juga pada regresi linier ganda yang akan 
dibahas di bab selanjutnya) metode maksimum likelihood memberikan 
hasil estimator yang sama dengan estimator yang diperoleh dengan metode 
kuadrat terkecil. 

Estimator yang diperoleh dengan metode maksimum likelihood 
mempunyai sifat-sifat yang baik. Untungnya dalam analisis regresi linier 
estimator, untuk 29 dan 8, yang diperoleh dengan metode maksimum 
likelihood dan metode maksimum likelihood sama sehingga kita cukup 
puas menggunakan estimator yang diperoleh dengan metode kuadrat 
terkecil. Secara umum, metode maksimum likelihood dan metode kuadrat 
terkecil tidak selalu memberikan hasil yang sama, misalnya jika distribusi 
galat acak tidak normal. 

Setelah nilai bo dan b, diperoleh maka estimasi hubungan antara 
variabel independen X dan variabel dependen Y dapat dituliskan sebagai: 


Y—b, tb X (2.13) 


Persamaan ini dinamakan persamaan garis regresi. 


Contoh 2.1 (Mengestimasi £&, dan &,) 

Anggap seorang peneliti meyakini ada hubungan atau pengaruh 
linier dari tingkat IO terhadap hasil belajar mahasiswa. Tingkat IO 
dianggap sebagai variabel independen (X) dan hasil belajar mahasiswa 
dianggap sebagai variabel dependen (Y). Anggap data sampel yang 
tersedia (data simulasi) dari responden sebanyak 10 mahasiswa adalah 
sebagai berikut: 
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Tabel 2.1 Data Simulasi Tingkat IO dan Hasil Belajar Mahasiswa 


Mesea Ba 19 Hasil Belajar Mahasiswa (Y) 
1 90 59 
9 07 62 
3 106 69 
4 110 65 
5 115 69 
6 118 74 
7 122 70 
8 127 16 
9 135 81 
10 140 85 


Diagram pencar (scatter plot) untuk data di atas terlihat pada Gambar 2.1. 


jar 
- 
3 
Lo 
o 


Hasil Belaj 
o 
Oo 


Ia 


Gambar 2.1 Diagram Pencar Data Tingkat IO dan Hasil Belajar 
Mahasiswa 
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